手写机器学习正向传播和反向传播
https://www.cnblogs.com/charlotte77/p/5629865.html
我保存到了 pdf
中《一文弄懂神经网络中的反向传播法——BackPropagation.pdf》
参考链接
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161...
探秘Transformer系列之(14)---
残差网络和归一化
目录
探秘Transformer系列之(14)---
残差网络和归一化
0x00 概述
0x01 残差连接
1.1 问题
1.2 相关知识
shortcut connections
恒等映射
1.3 网络结构
论文V1
论文V2
1.4 功用
梯度消失
缓解退化
层间修正
掩码 VS 残差
0x02 归一化
2.1 问题
2.2 定义
2.3 类型
0x03 BatchNorm
3.1 公式
3.2 作用
3.3 PyTorch使用
3.4 问题
0x04 layerNorm
4.1 解决方案
4.2 公式
4.3 作用
4.4 LN和BN的差异
作用对象
作用方向
业务选择
CV
NLP
具体实现
4.5 Post-Norm VS Pre-Norm
概念
论文实现
Post-Norm
难以训练
需要热身
Pre-Norm
小结
0x05 扩展比对
5.1 Instance Norm
5.2 GroupNorm
5.3 比对
类比
细节
0x06 实现
6....